当向人类解释AI行为时,人类的解释如何理解传达的信息,并且它是否与解释试图交流的内容相匹配?我们什么时候可以说解释正在解释某件事?我们旨在通过利用有关人类用来理解行为的民间概念的思维理论来提供答案。我们建立了人类言论的社会归因框架,该框架描述了解释的功能:人类从他们那里理解的信息。具体而言,有效的解释应产生连贯的心理模型(传达有关其他对比案例的信息),完整(传达对对比案例的明确因果叙事,代表原因,影响的表示和外部原因)以及互动(表面和解决矛盾,通过审讯到概括属性)。我们证明,许多XAI机制可以映射到民间行为概念。这使我们能够发现它们的故障模式,以防止当前方法有效解释,以及启用连贯解释所必需的。
translated by 谷歌翻译
特征归因A.K.A.将重要性分配给特征的输入突出性方法丰富,但可能对同一输入上的相同模型产生令人惊讶的不同结果。虽然预期差异是假设存在的不同意义的定义,但大多数方法要求提供与模型预测最相关的特征的忠实归属和点。对忠诚评估的现有工作并不是决定性的,并且没有提供明确的答案,以及如何比较不同的方法。专注于文本分类和模型调试方案,我们的主要贡献是忠实评估的协议,该协议是利用部分合成数据来获得特征重要性排名的基础事实。在该协议之后,我们对四个标准Parience方法进行了深入的分析,在一系列数据集和LSTM模型的数据集和快捷方式上进行了深入的分析,并证明了一些最受欢迎的方法配置即使对于最简单的快捷方式,也可以提供较差的结果。我们建议使用每个新任务和模型组合的协议,以找到识别快捷方式的最佳方法。
translated by 谷歌翻译